En informatique, l’analyse lexicale, lexing ou tokenization est la conversion d’une chaîne de caractères (un texte) en une liste de symboles (tokens en anglais). Elle fait partie de la première phase de la chaîne de compilation. Ces symboles sont ensuite consommés lors de l'analyse syntaxique. Un programme réalisant une analyse lexicale est appelé un analyseur lexical, tokenizer[1] ou lexer. Un analyseur lexical est généralement combiné à un analyseur syntaxique pour analyser la syntaxe d'un texte. Le tokenizer joue le rôle d'un découpeur de phrases (par exemple, la phrase « J'aime les pommes » sera découpée en plusieurs morceaux (ou tokens) : « J' », « aime », « les », « pommes ». Chaque mot devient un token qui sera utilisé par l'intelligence artificielle pour mieux comprendre et analyser le langage humain.